查看原文
其他

空中换发动机:中信建投如何实现超融合操作系统“0”业务停机的信创转换

周立斌 志凌海纳SmartX
2024-11-01

近日,中信建投证券股份有限公司(以下简称“中信建投”)与 SmartX 合作开展了超融合架构下主机操作系统信创转型的探索实践。用户利用 SmartX 自主研发的转换工具,成功将超融合软件操作系统由 CentOS 7 “原地”转换为 openEuler。本文中,中信建投证券云架构师周立斌为我们分享了该项目的实践经验。


本文转载自 TWT 社区。

作者:中信建投证券云架构师 周立斌


经过国家政策机构、行业侧和产业侧近年来的持续努力,金融行业在 IT 基础设施层面的信创转型已取得初步成效,并逐渐从服务器、芯片等硬件替换,迈向虚拟化、操作系统等软件替换的转型“深水区”。作为全国性大型综合证券公司,中信建投积极推动 IT 基础设施的全面国产化替代,尤其在操作系统层面,我司已大规模采用麒麟 OS 和 openEuler 替代非信创操作系统。


为了进一步提升整体 IT 信创水平,同时避免 CentOS 7 停服对业务的潜在影响,我司于 2023 年年初与国内某独立超融合厂商展开合作,利用厂商自主研发的转换工具,在业务不中断、系统不停机的情况下,将 7 套使用 CentOS 7 的超融合集群在线转换为基于 openEuler 的版本,率先在证券行业实现了 IT 基础架构核心软件的“原地信创转换”。本文将针对该项目的实践经验进行分享。


项目背景


为了加快数字化转型,我司于 2018 年首次引入该厂商的超融合架构,替代“x86 服务器配合虚拟化 + SAN 网络光纤交换机 + 集中存储阵列”的传统架构。历经数次扩容,目前我司已在位于北京的 2 个数据中心和上海数据中心部署超融合集群(包括基于鲲鹏 CPU 和海光 CPU 的信创节点)支持开发测试场景和生产环境的核心交易与非交易应用系统。


其中,北京数据中心部署在 x86、ARM 和信创环境的超融合集群,和上海数据中心部署在 x86 环境的超融合集群,由于采购时间较早,均采用厂商基于 CentOS 7 自主研发的超融合软件。本次项目的最终目标,就是将以上所有超融合集群全部实现操作系统信创转型。



方案制定


2023 年春节后,我司与厂商工程师进行了深入探讨,并拟定了两种操作系统转换思路:


  1. 使用 Leapp App 进行转换:利用 Redhat 员工开发的开源工具 Leapp App 进行 RedHat 系发行版之间的升级切换。该工具会进行环境信息的收集与检查,并通过构建临时环境执行 RPM 升降级,解决了 RPM 高级特性依赖问题。但该方案需保证操作系统为 CentOS 7 latest 版本,且检查项和执行动作较多,也需要引入第三方依赖。

  2. 使用 dnf distro-sync 命令进行转换:安装包管理器 DNF 后(当前 OS 包管理器为 Yum),在保证 Yum(DNF) Repository 配置是目标版本的前提下,使用 “dnf distro-sync” 命令来进行 RPM(Redhat 软件管理系统)的升级和同步。该方案无需引入其他额外工具依赖,操作简单可控,但需要保证目标 Repository 中的所有 RPM 没有使用 RPM 高级特性的依赖。


由于证券行业提供的很多服务都要求较高的系统稳定性,我司希望能够在业务不中断、系统不停机的情况下实现转换。这就要求转换过程中使用的技术和工具成熟可控,同时保证执行流程简单流畅,涉及的人工操作尽可能减少。基于此,我们认为,使用 Leapp App 的方案执行流程复杂,执行时整体的不可控因素较多;而使用 dnf distro-sync 命令执行转换的方案操作简单,且由于 RPM 集合是超融合软件(基于 CentOS 7)必要组件及依赖,来源控制可以保证,在技术层面具备充分的可靠性与稳定性。


因此,我们确定采用第二种转换方案,利用厂商自研转换工具(该工具的转换效率、可靠性与稳定性已经过金融客户实践验证),结合超融合在线升级与虚拟机热迁移功能,将现有超融合集群操作系统在线转换为 openEuler(流程如下图所示)。


超融合软件操作系统在线升级转换流程


为进一步保障转换的稳定性,我们采取逐个节点实施转换的策略,并首先选择有节点冗余的集群进行操作,这样即使在单节点故障情况下,也能够保障业务的正常运行。同时,整个转换过程基本仅在 BaseOS 转换时涉及手动命令操作,进一步降低了人为失误对业务带来的影响。


项目实施与成果


2023 年 2 月底,我们决定根据部署环境与承载业务的重要程度,分批次对北京数据中心的 ARM 和信创开发测试集群、x86 集群、生产集群以及上海数据中心的 x86 集群进行测试和转换:



按照项目计划,我司先对北京研发数据中心的 5 套 ARM 和 2 套海光 CPU 架构集群进行转换。3 月初,我们先从 ARM 和海光架构集群中各挑选了 1 套负载相对比较低的集群进行了转换测试。在转换成功且两套集群稳定运行半个月后,我们对剩余的 5 套集群也实施了转换操作。目前,7 套集群的转换均已顺利完成,前后花费不到 1 个月的时间,整个过程没有对业务带来一点影响。


项目过程中,为了避免转换对业务带来影响,我司严格遵守“三个到位”原则:


  • 响应到位:如果转换过程中出现问题,工程师需要以最快速度定位并解决问题。例如,在一次节点转换后,我们的服务器突然出现了宕机,经过厂商的专业排查,很快就定位到一个故障内存条(与转换操作无关),并及时进行了恢复,没有对业务与项目开展造成影响。

  • 评估到位:项目前期的环境检查至关重要。例如,我司使用的网卡需要使用指定驱动,需要厂商确保转换工具与新版本的超融合软件可以满足这一环境要求。

  • 执行到位:升级转换是一个精细活,我们和厂商工程师对每台主机逐一进行转换操作,全程监督,保证任何一个环节都不出错,这些都要求工程师具备足够的细心和耐心。


通过第一阶段的项目,我司不仅验证了原地转换超融合软件操作系统的可行性,还取得了如下收益:


  • 进一步完善 IT 基础设施信创转型,实现“由外到内”的全面国产化。

  • 规避了 CentOS 7 停止服务带来的潜在风险,保障了未来业务的稳定开展。

  • 转换超融合软件的同时升级了版本,可以享受到新版本的功能特性。


现在,我们正式步入项目的第二阶段,并正在对北京研发数据中心的部分 x86 集群进行转换测试。如果测试顺利,我们会在未来对研发数据中心的所有 x86 集群实施信创操作系统转换,随后依次转换北京生产数据中心和上海数据中心的全部超融合集群,实现项目的最终目标。


小结


对于此次项目,我们可以用一句比喻来总结:我们对操作系统进行原地转换,就像为飞行中的飞机更换发动机,而作为“乘客”的核心业务没有感受到一丝波动。未来,中信建投将进一步完善整体 IT 架构的信创转型,实现由底层到上层、由硬件到软件的全面国产化替代。




不止于国产替代,更关注可持续发展的现代化 IT 基础设施。目前,志凌海纳 SmartX 已帮助来自保险、证券、期货、银行等金融细分领域的 50+ 客户落地 1500+ 信创节点。欲详细了解信创转型技术路线、厂商评估、用户实践,扫描下方二维码,免费获取《信创云转型合集:技术路线、厂商评估与用户实践》电子书。




目前,SmartX 主机操作系统转换工具已正式发布,该工具支持将使用 SMTX OS 或 SMTX ZBS 的主机操作系统从 CentOS 转换为 openEuler。如有需求或疑问,欢迎扫描文末用户助手二维码在线咨询,或联系 SmartX 销售代表。


推荐阅读:


修改于
继续滑动看下一个
志凌海纳SmartX
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存